当前的视频扩散模型具有令人印象深刻的属性质量,但由于双向注意依赖性而引起的交互式应用中的挣扎。单一帧的生成要求模型处理整个序列,包括未来。我们通过将预处理的双向扩散变压器适应自动回归变压器来解决这一限制,该变压器会生成框架。为了进一步减少延迟,我们将匹配的分布匹配(DMD)扩展到视频,将50步扩散模型提炼到4步生成器中。为了实现稳定且高质量的蒸馏,我们根据教师的Ode轨迹以及一种不对称的蒸馏策略介绍了学生初始化计划,该计划通过双向老师来监督因果学生模型。这种方法有效地减轻自回归中的错误积累
主要关键词
![arxiv:2412.07772v2 [CS.CV] 2025年1月6日PDF文件第1页](/bimg/9/9405a930bacbbf93ffdf27f66076ec415745d53c.webp)
![arxiv:2412.07772v2 [CS.CV] 2025年1月6日PDF文件第2页](/bimg/7/761ba6da7849e58510d057c0dcd245408fe728fc.webp)
![arxiv:2412.07772v2 [CS.CV] 2025年1月6日PDF文件第3页](/bimg/0/0b05615bc9a2f4e9be5d33f1e3704761278b4e8e.webp)
![arxiv:2412.07772v2 [CS.CV] 2025年1月6日PDF文件第4页](/bimg/8/8c98cf880ca9d1a19dbe243f9f6e6eaea36f243f.webp)
![arxiv:2412.07772v2 [CS.CV] 2025年1月6日PDF文件第5页](/bimg/b/b557fb82e843de5049f9de79606c55ee0be0c09a.webp)
